---
title: '02b Data Prep - Wikipedia (wikidata)'
author:
  - J Andrés Gannon
  - Kerry Chavez
format:
  html:
    title-block-banner: true
    toc: true
    toc-location: right
    toc-depth: 2
    html-math-method: katex
    css: styles.css
    citations-hover: true
    footnotes-hover: true
    code-tools: true
    code-fold: true
    code-summary: "Show the code"
    code-overflow: wrap
    code-copy: true
editor: visual
execute:
  echo: true
  warning: false
  cache: true
date: "`r format(Sys.Date(), '%B %d, %Y')`"
bibliography: ../paper/MONSTr.bib
---

```{r knitr_options, echo = FALSE, warning = FALSE, cache = FALSE}
library(knitr)
library(kableExtra)
library(magrittr)
library(ggplot2)
```

This document processes and cleans data scraped from wikidata using SPARQL.

# SPARQL Query

The ? after SELECT DISTINCT are the items I want to return, so for me that's the properties

Starting with the SELECT clause, we define the variables we want to get (variables are prefixed with a question mark). Inside the WHERE clause, we set the wikidata items we want to return under VALUES and then beneat that, the properties (wdt:) of interest.

Since the script takes a long time to run and can time out, we save the results from the search into a .csv to reduce replication time.

```{r, eval = FALSE}
WikidataQueryServiceR::query_wikidata('SELECT ?item ?itemLabel 
                                              ?class ?classLabel 
                                              ?country ?countryLabel 
                                              ?location ?locationLabel 
                                              ?part_of ?part_ofLabel 
                                              ?point_in_time 
                                              ?start_time 
                                              ?end_time 
                                              ?participant ?participantLabel 
WHERE {
  VALUES ?item {
        wd:Q4585384
        wd:Q4586873
        wd:Q5189962
        wd:Q48799393
        wd:Q335259
        wd:Q4599065
        wd:Q3152953
        wd:Q4276950
        wd:Q107802
        wd:Q4601543
        wd:Q65074171
        wd:Q4608594
        wd:Q553332
        wd:Q10751263
        wd:Q1848486
        wd:Q7418013
        wd:Q81545
        wd:Q210714
        wd:Q543279
        wd:Q4625940
        wd:Q17000965
        wd:Q15109939
        wd:Q23022941
        wd:Q27185813
        wd:Q24467647
        wd:Q28983702
        wd:Q29991963
        wd:Q29524697
        wd:Q29385187
        wd:Q30625807
        wd:Q30323833
        wd:Q29197866
        wd:Q28162889
        wd:Q51844684
        wd:Q65920364
        wd:Q80754846
        wd:Q32634886
        wd:Q4677292
        wd:Q2984712
        wd:Q4677332
        wd:Q4677356
        wd:Q20241081
        wd:Q19428973
        wd:Q20050670
        wd:Q21405560
        wd:Q19864219
        wd:Q286436
        wd:Q22894201
        wd:Q55603824
        wd:Q48731890
        wd:Q18159629
        wd:Q18121212
        wd:Q2071090
        wd:Q22935666
        wd:Q33761
        wd:Q17512479
        wd:Q76327897
        wd:Q17182139
        wd:Q28162756
        wd:Q2909596
        wd:Q4841775
        wd:Q1984410
        wd:Q4858273
        wd:Q72587856
        wd:Q4870165
        wd:Q17573637
        wd:Q1402530
        wd:Q4870210
        wd:Q4870215
        wd:Q4870218 
        wd:Q3636316
        wd:Q1930510
        wd:Q4870238
        wd:Q18639484
        wd:Q23935847
        wd:Q27915277
        wd:Q26413779
        wd:Q1975663
        wd:Q385546
        wd:Q1804983
        wd:Q61843818
        wd:Q17621839
        wd:Q19799151
        wd:Q2237337 
        wd:Q24905428
        wd:Q4870424
        wd:Q2585300
        wd:Q2888122
        wd:Q18639119
        wd:Q28223860
        wd:Q4870581
        wd:Q1485258
        wd:Q2888379
        wd:Q4870854
        wd:Q4870879
        wd:Q4870881
        wd:Q4870899
        wd:Q4870947 
        wd:Q24205448
        wd:Q281145
        wd:Q4871076
        wd:Q4871080
        wd:Q4871173
        wd:Q40889886
        wd:Q4871175
        wd:Q18712789
        wd:Q23403028
        wd:Q4871257
        wd:Q2664174
        wd:Q4178089
        wd:Q718770
        wd:Q48150708
        wd:Q4871421
        wd:Q3303959
        wd:Q21030182
        wd:Q19428991
        wd:Q1634629
        wd:Q52226
        wd:Q4871794
        wd:Q27429856
        wd:Q7510253
        wd:Q2068122
        wd:Q2889462
        wd:Q718851
        wd:Q4871922 
        wd:Q3636553
        wd:Q3401917
        wd:Q3636571
        wd:Q3180637
        wd:Q4872147
        wd:Q4872157
        wd:Q2889747
        wd:Q21685887
        wd:Q30140821
        wd:Q4872168
        wd:Q4872216
        wd:Q4087318
        wd:Q4872256
        wd:Q4872292 
        wd:Q20715216
        wd:Q19691931
        wd:Q4872330
        wd:Q4872366
        wd:Q2889960
        wd:Q4872371
        wd:Q18148976
        wd:Q29258911
        wd:Q4872492
        wd:Q972831
        wd:Q4872509
        wd:Q2888908
        wd:Q4872982
        wd:Q17286795
        wd:Q2237280
        wd:Q30304278
        wd:Q4872608
        wd:Q2237268
        wd:Q3636251
        wd:Q2890373
        wd:Q1327861
        wd:Q4871376
        wd:Q181533
        wd:Q14947002
        wd:Q5091023
        wd:Q16146546
        wd:Q40719
        wd:Q1312389 
        wd:Q1781133
        wd:Q18204694
        wd:Q3893040
        wd:Q5227745
        wd:Q60754741
        wd:Q60765736
        wd:Q52941555
        wd:Q39899474
        wd:Q18639765
        wd:Q1328419
        wd:Q2935362
        wd:Q5286642
        wd:Q1260080
        wd:Q16836125
        wd:Q28846183
        wd:Q60761563
        wd:Q5692053
        wd:Q5432157
        wd:Q2888881
        wd:Q2889318
        wd:Q30686667
        wd:Q5454117
        wd:Q1537159
        wd:Q5468411
        wd:Q2889117
        wd:Q5584353
        wd:Q1136783
        wd:Q5598537 
        wd:Q37643
        wd:Q13408125
        wd:Q8256467
        wd:Q30682487
        wd:Q5252012
        wd:Q40532579
        wd:Q5709231
        wd:Q6722016
        wd:Q5953962
        wd:Q313577
        wd:Q22935835
        wd:Q179275
        wd:Q632787
        wd:Q849563
        wd:Q155654
        wd:Q22948406
        wd:Q47015896
        wd:Q1433190
        wd:Q6067924
        wd:Q6067932
        wd:Q545449
        wd:Q6067801
        wd:Q17984356
        wd:Q926905
        wd:Q7097057
        wd:Q57890365
        wd:Q1154912
        wd:Q899657
        wd:Q6068230 
        wd:Q15303938
        wd:Q1569328
        wd:Q60756557
        wd:Q6431406
        wd:Q2813755
        wd:Q159470
        wd:Q190029
        wd:Q21057198
        wd:Q6445800
        wd:Q6472107
        wd:Q6541036
        wd:Q16911838
        wd:Q18702324
        wd:Q30688615
        wd:Q6706905
        wd:Q23701421
        wd:Q6751071
        wd:Q20860131
        wd:Q17507684
        wd:Q12327344
        wd:Q60770016
        wd:Q1225409
        wd:Q20647259
        wd:Q23540783
        wd:Q23039091
        wd:Q499623
        wd:Q4594928
        wd:Q4475947 
        wd:Q155723
        wd:Q1091051
        wd:Q6965344
        wd:Q7038210
        wd:Q21814411
        wd:Q4093050
        wd:Q4438024
        wd:Q27630575
        wd:Q25242026
        wd:Q17984373
        wd:Q24255637
        wd:Q21472342
        wd:Q60755056
        wd:Q7096724 
        wd:Q7096725
        wd:Q1616794
        wd:Q7096734
        wd:Q7096735
        wd:Q7096739
        wd:Q1476042
        wd:Q7096757
        wd:Q7096760
        wd:Q7096764
        wd:Q3354646
        wd:Q7096775
        wd:Q7096780
        wd:Q7096794
        wd:Q3354655 
        wd:Q11798527
        wd:Q7096856
        wd:Q7096859
        wd:Q7096884
        wd:Q1128855
        wd:Q7096918
        wd:Q7096941
        wd:Q7096953
        wd:Q7096967
        wd:Q160774
        wd:Q567343
        wd:Q7096982
        wd:Q7096978
        wd:Q7096979 
        wd:Q3354687
        wd:Q7097002
        wd:Q2026053
        wd:Q7097017
        wd:Q7097022
        wd:Q3354694
        wd:Q326668
        wd:Q1195810
        wd:Q2631285
        wd:Q2602154
        wd:Q26690015
        wd:Q21296923
        wd:Q7097069
        wd:Q3428977 
        wd:Q7097106
        wd:Q1234017
        wd:Q3030335
        wd:Q30589255
        wd:Q1511923
        wd:Q2396979
        wd:Q7097122
        wd:Q1747422
        wd:Q18128999
        wd:Q837887
        wd:Q18357664
        wd:Q7097167
        wd:Q7097172
        wd:Q7097173 
        wd:Q7097175
        wd:Q7097177
        wd:Q7097176
        wd:Q7097180
        wd:Q3354735
        wd:Q3354740
        wd:Q1518797
        wd:Q23043314
        wd:Q7097226
        wd:Q7097238
        wd:Q971510
        wd:Q321054
        wd:Q7097269
        wd:Q7097270 
        wd:Q16931346
        wd:Q2026187
        wd:Q16932796
        wd:Q1763044
        wd:Q65076683
        wd:Q843588
        wd:Q909414
        wd:Q7097302
        wd:Q609978
        wd:Q5473413
        wd:Q7097303
        wd:Q7097325
        wd:Q7097340
        wd:Q2026233 
        wd:Q65066391
        wd:Q2001981
        wd:Q2026247
        wd:Q7097371
        wd:Q3354803
        wd:Q4335239
        wd:Q4744313
        wd:Q7097388
        wd:Q2026267
        wd:Q1697088
        wd:Q2026272
        wd:Q7097394
        wd:Q7097399
        wd:Q2026278 
        wd:Q7097403
        wd:Q2281470
        wd:Q7097429
        wd:Q3780506
        wd:Q3354826
        wd:Q3417667
        wd:Q7097465
        wd:Q2026322
        wd:Q7097481
        wd:Q7097502
        wd:Q7097510
        wd:Q7097528
        wd:Q3354840
        wd:Q472398
        wd:Q7097544
        wd:Q1000306
        wd:Q2739563
        wd:Q2026406
        wd:Q7097569
        wd:Q7097575
        wd:Q7097577
        wd:Q642100
        wd:Q2549377
        wd:Q477040
        wd:Q7097613
        wd:Q22907504
        wd:Q7097639
        wd:Q7097646 
        wd:Q3269455
        wd:Q16250538
        wd:Q2026486
        wd:Q7097682
        wd:Q7097684
        wd:Q7097689
        wd:Q1838811
        wd:Q1678616
        wd:Q7097704
        wd:Q7097703
        wd:Q7097713
        wd:Q7105180
        wd:Q7122885
        wd:Q7125993 
        wd:Q27988133
        wd:Q214451
        wd:Q30089867
        wd:Q5687552
        wd:Q6400879
        wd:Q6444187
        wd:Q28716912
        wd:Q27761867
        wd:Q18393989
        wd:Q18651204
        wd:Q2384201
        wd:Q21032720
        wd:Q19574810
        wd:Q28162754
        wd:Q19682450
        wd:Q1330136
        wd:Q24083362
        wd:Q19407785
        wd:Q17183365
        wd:Q15276208
        wd:Q26945162
        wd:Q23022688
        wd:Q2083522
        wd:Q7503440
        wd:Q17984925
        wd:Q23137890
        wd:Q3485911
        wd:Q3486016 
        wd:Q3030036
        wd:Q7521684
        wd:Q243620
        wd:Q1052332
        wd:Q1072042
        wd:Q17272643
        wd:Q313440
        wd:Q647100
        wd:Q178810
        wd:Q2783811
        wd:Q7703930
        wd:Q577539
        wd:Q21860041
        wd:Q28001554
        wd:Q20743978
        wd:Q18208094
        wd:Q7863480
        wd:Q1778229
        wd:Q2418042
        wd:Q19646470
        wd:Q8207886
        wd:Q182865
        wd:Q1519107
        wd:Q185729
        wd:Q7979006
        wd:Q30014900
        wd:Q19686631
        wd:Q15946570
        wd:Q242352
  }
  ?item wdt:P31 ?class;
  OPTIONAL {?item wdt:P17 ?country. }
  OPTIONAL { ?item wdt:P131 ?located_in_the_administrative_territorial_entity. }
  OPTIONAL { ?item wdt:P155 ?follows. }
  OPTIONAL {?item wdt:P276 ?location. }
  OPTIONAL { ?item wdt:P361 ?part_of. }
  OPTIONAL { ?item wdt:P527 ?has_part. }
  OPTIONAL { ?item wdt:P571 ?inception. }
  OPTIONAL { ?item wdt:P576 ?dissolved__abolished_or_demolished. }
  OPTIONAL { ?item wdt:P580 ?start_time. }
  OPTIONAL { ?item wdt:P582 ?end_time. }
  OPTIONAL { ?item wdt:P585 ?point_in_time. }
  OPTIONAL { ?item wdt:P625 ?coordinate_location. }
  OPTIONAL { ?item wdt:P664 ?organizer. }
  OPTIONAL { ?item wdt:P710 ?participant. }
  OPTIONAL { ?item wdt:P1269 ?facet_of. }
  OPTIONAL { ?item wdt:P1339 ?number_of_injured. }
  OPTIONAL { ?item wdt:P1365 ?replaces. }
  OPTIONAL { ?item wdt:P1366 ?replaced_by. }
  OPTIONAL { ?item wdt:P1120 ?number_of_deaths. }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
')
```

```{r}
query <- read.csv(paste0(here::here(), "/data/raw/02b_newdata_wikidata.csv")) %>%
  dplyr::mutate(wikidata_id = sub(".*entity/", "", item))

query %>%
  DT::datatable()
```

# Save data

We save the final dataframe of the variables identified from dbpedia.

```{r}
write.csv(query, paste0(here::here(), "/data/","02b_interventions_newdata_wikidata.csv"))
```
